2組のデータの関係を調べるためにはまずはデータをグラフ化して見るとよいです。大きさ $n$ の母集団の2変数データとして、以下の表のようなデータが得られた場合、2組のデータをxy平面上に「・(ドット)」で示すとその関係がわかります。これを散布図(Scatter Diagram)といいます。 散布図 散布図散布図
散布図
 1番目の図のように、$x$ が増加すると $y$ も増加するような傾向があるとき、$x$ と $y$ には 正の相関がある といいます。2番目の図のように、 $x$ が増加すると $y$ は減少するような傾向があるとき、$x$ と $y$ には 負の相関があるといいます。これらのような傾向が見られない3番目の図のようなときには、$x$ と $y$ には 相関がない といいます。  散布図を見ると、複数のデータの間にどのような相関があるか感覚的に掴めるので便利なのですが、実際にどれほど直線的な関係があるのかを数量的に示す必要があります。 データ同士の関係を調べる方法としては、前章 統計の基礎 で解説した相関分析以外にも、回帰分析という手法があります。相関分析は、2変数 $x$ と $y$ の間で、原因と結果の区別をしないで関係の度合いを測定する方法です。一方、回帰分析は複数の変数の間に因果関係があるとみなし、 目的変数が説明変数にどのように決定されるかを数式で判断します。
 過去に取得されたデータを用いて、将来の予測を行いたいときなどに回帰分析(regression analysis)という手法を使います。回帰とは、目的変数 $Y$ について説明変数 $X$ を使った回帰式( $Y = f(X)$ )で表すことをいいます。目的変数 $Y$ と説明変数 $X$ の間にモデルを当てはめること、ということもできます。この回帰式(回帰方程式ともいう)を求めることを、回帰分析というのです。回帰式を使うことで、$X$ の値が変わっても $Y$ の値を予測することができます。  説明変数とは、目的変数を説明する変数のことです。独立変数ともいいます。これは、物事の原因ととらえることもできます。目的変数とは、予測したい変数のことです。従属変数ともいいます。これは、物事の結果ととらえることもできます。  回帰分析には、単回帰分析重回帰分析があります。目的変数に対して、説明変数が1つだけの場合 $Y = f(X)$ 、このような式を単回帰式といい、単回帰式を求めることを単回帰分析といいます。一方、目的変数に対して、説明変数が複数ある場合 $Z = f(W, X, Y, \cdots)$ 、このような式を重回帰式といい、重回帰式を求めることを重回帰分析といいます。  回帰分析は、マーケティング分野などに利用されることが多いようです。売上が上がった原因を調べたり、店舗であれば最寄り駅からの距離、乗降者数が売り上げにどの程度影響しているかや、どの広告チャネルを使えば、最もコストパフォーマンスが高い結果が得られるかなど、回帰分析を利用して、より多くの売上を上げるための戦略を立てる場合に使用されています。  しかし、回帰分析にはデメリットもあります。回帰分析を利用するには、まず結果に関係するであろう原因(説明変数)を洗い出さなければならないのですが、洗い出した原因以外にも、目的変数に影響を与えている項目がある可能性があります。すべての可能性を考慮しなければ、正確な予測やシミュレーションはできません。また、重回帰分析においては、説明変数どうしが影響を及ぼし合っていると、目的変数の予測を正しく行えません。これらのことを理解したで、正しく回帰分析を使いこなす必要があります。
 目的変数に対して、説明変数が1つだけの場合 $Y = f(X)$ を単回帰分析というのでした。
 
page top